只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
图像修饰,旨在再生给定图像的视觉令人愉悦的演绎,是用户具有不同美学感觉的主观任务。大多数现有的方法都部署了确定性模型,以从特定的专家那里学习修饰样式,从而使其不太灵活地满足各种主观偏好。此外,由于对不同图像的有针对性处理,专家的内在多样性也被缺乏描述。为了避免此类问题,我们建议通过基于流动的架构来学习各种图像修饰。与直接生成输出图像的当前基于流的方法不同,我们认为在样式域中学习可以(i)将修饰样式从图像内容中解开,(ii)导致稳定的样式表现形式,并且(iii)避免空间不和谐效果。为了获得有意义的图像音调样式表示,设计了联合培训管道,设计由样式编码器,条件修饰网和图像音调样式正常化流量(TSFLOW)模块组成。特别是,样式编码器预测了输入图像的目标样式表示,该图像是用于修饰的修饰网中的条件信息,而TSFlow将样式表示向量映射到前向通行中的高斯分布。训练后,TSFlow可以通过从高斯分布中取样来生成多样的图像音调矢量。关于MIT-Adobe Fivk和PPR10K数据集的广泛实验表明,我们提出的方法对最新方法有利,并且有效地产生了不同的结果以满足不同的人类美学偏好。源代码和预培训模型可在https://github.com/ssrheart/tsflow上公开获得。
translated by 谷歌翻译
现有的未配对的低光图像增强方法更喜欢采用双向GAN框架,其中部署了两个CNN发生器以分别进行增强和降级。然而,这种数据驱动的模型忽略了低和正常光图像之间的变换的固有特性,导致不稳定的训练和伪像。在这里,我们建议利用可逆网络来增强前进过程中的低光图像,并与未配对的学习相反地降低正常光。然后将产生的和实际图像送入对抗性学习的鉴别器中。除了对抗性损失外,我们还设计各种损失功能,以确保培训的稳定性并保持更多图像细节。特别是,引入了可逆性损失以减轻过度暴露问题。此外,我们为低光图像提供了一种逐步的自我指导增强过程,对SOTA实现了良好的性能。
translated by 谷歌翻译
基于稀疏的代表的分类(SRC)通过将识别问题作为简单的线性回归问题铸造了很多关注。然而,SRC方法仍然仅限于每类别的足够标记的样本,不充分使用未标记的样本,以及表示的不稳定性。为了解决这些问题,提出了一种未标记的数据驱动的逆投影伪全空间表示的基于空间表示的分类模型,具有低级稀疏约束。所提出的模型旨在挖掘所有可用数据的隐藏语义信息和内在结构信息,这适用于少量标记的样本和标记样本与正面识别中的未标记样本问题之间的比例不平衡。引入了混合的高斯Seidel和Jacobian Admm算法来解决模型。分析了模型的收敛性,表示能力和稳定性。在三个公共数据集上的实验表明,所提出的LR-S-PFSRC模型达到稳定的结果,特别是对于样品的比例不平衡。
translated by 谷歌翻译
We propose a distributionally robust return-risk model for Markov decision processes (MDPs) under risk and reward ambiguity. The proposed model optimizes the weighted average of mean and percentile performances, and it covers the distributionally robust MDPs and the distributionally robust chance-constrained MDPs (both under reward ambiguity) as special cases. By considering that the unknown reward distribution lies in a Wasserstein ambiguity set, we derive the tractable reformulation for our model. In particular, we show that that the return-risk model can also account for risk from uncertain transition kernel when one only seeks deterministic policies, and that a distributionally robust MDP under the percentile criterion can be reformulated as its nominal counterpart at an adjusted risk level. A scalable first-order algorithm is designed to solve large-scale problems, and we demonstrate the advantages of our proposed model and algorithm through numerical experiments.
translated by 谷歌翻译
Semi-supervised learning (SSL) has achieved great success in leveraging a large amount of unlabeled data to learn a promising classifier. A popular approach is pseudo-labeling that generates pseudo labels only for those unlabeled data with high-confidence predictions. As for the low-confidence ones, existing methods often simply discard them because these unreliable pseudo labels may mislead the model. Nevertheless, we highlight that these data with low-confidence pseudo labels can be still beneficial to the training process. Specifically, although the class with the highest probability in the prediction is unreliable, we can assume that this sample is very unlikely to belong to the classes with the lowest probabilities. In this way, these data can be also very informative if we can effectively exploit these complementary labels, i.e., the classes that a sample does not belong to. Inspired by this, we propose a novel Contrastive Complementary Labeling (CCL) method that constructs a large number of reliable negative pairs based on the complementary labels and adopts contrastive learning to make use of all the unlabeled data. Extensive experiments demonstrate that CCL significantly improves the performance on top of existing methods. More critically, our CCL is particularly effective under the label-scarce settings. For example, we yield an improvement of 2.43% over FixMatch on CIFAR-10 only with 40 labeled data.
translated by 谷歌翻译
Edge computing-based 3D perception has received attention in intelligent transportation systems (ITS) because real-time monitoring of traffic candidates potentially strengthens Vehicle-to-Everything (V2X) orchestration. Thanks to the capability of precisely measuring the depth information on surroundings from LiDAR, the increasing studies focus on lidar-based 3D detection, which significantly promotes the development of 3D perception. Few methods met the real-time requirement of edge deployment because of high computation-intensive operations. Moreover, an inconsistency problem of object detection remains uncovered in the pointcloud domain due to large sparsity. This paper thoroughly analyses this problem, comprehensively roused by recent works on determining inconsistency problems in the image specialisation. Therefore, we proposed a 3D harmonic loss function to relieve the pointcloud based inconsistent predictions. Moreover, the feasibility of 3D harmonic loss is demonstrated from a mathematical optimization perspective. The KITTI dataset and DAIR-V2X-I dataset are used for simulations, and our proposed method considerably improves the performance than benchmark models. Further, the simulative deployment on an edge device (Jetson Xavier TX) validates our proposed model's efficiency. Our code is open-source and publicly available.
translated by 谷歌翻译
在本文中,我们提出了一个称为SDFE-LV的大规模,多源和不受约束的数据库,用于发现长视频中完整动态面部表达的发作和偏移帧,这被称为动态面部表情斑点的主题(DFE)和许多面部表达分析任务的重要步骤。具体而言,SDFE-LV由1,191个长视频组成,每个视频包含一个或多个完整的动态面部表情。此外,在相应的长视频中,每个完整的动态面部表达都被10次训练有素的注释者独立标记了五次。据我们所知,SDFE-LV是DFES任务的第一个无限制的大规模数据库,其长期视频是从多个现实世界/密切现实世界中的媒体来源收集的,例如电视采访,纪录片,电影和电影,以及我们媒体短视频。因此,在实践中,SDFE-LV数据库上的DFE任务将遇到许多困难,例如头部姿势变化,遮挡和照明。我们还通过使用许多最新的深度发现方法,从不同角度提供了全面的基准评估,因此对DFE感兴趣的研究人员可以快速而轻松地开始。最后,通过有关实验评估结果的深入讨论,我们试图指出几个有意义的方向来处理DFES任务,并希望将来DFE可以更好地进步。此外,SDFE-LV将仅尽快自由发布供学术使用。
translated by 谷歌翻译
低光环境对强大的无人驾驶汽车(UAV)跟踪也构成了巨大的挑战,即使使用最新的(SOTA)跟踪器,由于潜在的图像特征在不利的光条件下很难提取。此外,由于可见性较低,人类监视器的准确在线选择也极为难以在地面控制站中初始化无人机跟踪。为了解决这些问题,这项工作提出了一个新颖的增强剂,即凸线网,以点燃人类操作员和无人机跟踪器的潜在对象。通过采用变压器,LightlightNet可以根据全局特征调整增强参数,因此可以适应照明变化。引入了像素级范围掩模,以使光明网络更加专注于没有光源的跟踪对象和区域的增强。此外,建立了一种软截断机制,以防止背景噪声被误认为关键特征。对图像增强基准测试的评估表明,光明网络在促进人类感知方面具有优势。公共Uavdark135基准进行的实验表明,HightlightNet比其他SOTA低光增强剂更适合无人机跟踪任务。此外,在典型的无人机平台上进行的现实世界测试验证了HightlightNet在夜间航空跟踪相关应用中的实用性和效率。代码和演示视频可在https://github.com/vision4robotics/highlightnet上找到。
translated by 谷歌翻译
自我监督学习(SSL)在预处理模型中取得了出色的性能,这些模型可以通过微调进一步用于下游任务。但是,这些自我监督模型可能不会捕获有意义的语义信息,因为在对比度损失中始终将属于同一类的图像视为负对。因此,同一类的图像通常在学习的特征空间中彼此之间相距很远,这不可避免地会阻碍微调过程。为了解决这个问题,我们试图通过增强语义信息来为自我监督模型提供更好的初始化。为此,我们提出了一种对比初始化(COIN)方法,该方法通过在微调之前引入额外的初始化阶段来打破标准的微调管道。广泛的实验表明,借助丰富的语义,我们的硬币显着优于现有方法,而无需引入额外的培训成本,并在多个下游任务上设定了新的最新技术。
translated by 谷歌翻译